来源:知乎—李新春地址:https://zhuanlan.zhihu.com/p/106662375Attention机制是深度学习里面的一个非常重要且有效的技巧,本文将会简单介绍Attention的基础原理,重点介绍Attention的变种和最近研究。以下是文章的目录结构:1. Attention Review2. Related Methods3. Varieties of Attention4. Conclusion
Related Methods下面介绍一下相关工作,Attention和很多术语有相似之处,比如Pooling,Aggregation,Gating,Squeeze-Excitation等等,下面分别介绍一下。PoolingPooling池化是神经网络卷积层之后经常用到的一层,目前为止有很多池化的方法,比如确定性(Deterministic)的池化方法:Sum pooling, Mean pooling, Max pooling, K-Max pooling, Chunk-Max pooling等。还有一类就是随机池化,Stochastic pooling。先简单介绍一下Deterministic Pooling的方法:其中如下图所示(按列Pooling),对应的Mean、Sum、Max是将多个向量的对应值的地方取平均、和、最大,K-Max是指的取前K个最大的拼接成一个向量,Chunk-Max是将向量分组然后分别取最大。确定性Pooling的方法有很多好处:比如各种不变性(Invariant)。但是Mean Pooling会因为平均而降低某一个区域的激活值,Max Pooling会不稳定。然后Stochastic Pooling是论文《Stochastic Pooling for Regularization of Deep Convolutional Neural Networks》里面提出的一种随机性池化方法,根据ReLU之后的激活值的大小进行按照Multinomial概率分布选择一个值,示意图如下:然后在测试过程中,根据概率值进行加权得到相应的Pooling值,类似于Dropout机制,也是充当了一个正则化的作用。Aggregation有一些机器学习的任务需要做一些集合型数据集,即顺序不变性,比如统计人群数量、点云分类或者多实例数据集。一般用来做顺序无关的数据集有几种方法,包括:1)人工设定一个排序方式;2)使用多个排序来扩充训练数据集;3)使用单个函数对每个样本进行处理,然后使用一个顺序无关的函数来处理,比如Mean、Max、Sum等等。在《Deep Sets》里面给出了一个定理:对于一个集合数据 施加一个函数,当且仅当它可以被分解为 ,它就是一个合理的集合函数,即具有顺序不变性。这个结果告诉我们可以使用单独的变换函数 对每个样本进行处理,然后使用聚合函数 对得到的表示进行处理,然后使用 进行分类或者回归。相应的应用可参考PointNet,见《PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation》。Gating门技巧是LSTM里面最常用的一种方法,以GRU为例,参考文章《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》:其中包括重置门和更新门,Reset Gate和Update Gate。重置门会计算一组经过Sigmoid激活函数对 进行点乘,相当于加了权重;更新门会计算一组Sigmoid激活地函数来控制使用新的隐层或旧的隐层值。Squeeze-Excitation这是CVPR2018 《Squeeze-and-Excitation Networks》提出的一种利用Channel信息的方法,示意图见下图:对于CNN里面图像的处理,得到的基本上都是一个“立方体”,大小为:。其中 是通道,对于每一个通道,先做Squeeze,即Mean Pooling,然后使用带参数的激活函数进行Excitation,得到一组权值 ,施加到对应的通道上。
03
Varieties of Attention下面介绍一下Attention的变种,包括:Feed forward attention, Self attention, Co attention等等。Feed forward attention最常用的Attention之一是Feed forward attention,其中查询Query被设置为是可以学习的参数 ,然后检索库里面的Key和Value被设置为一样的,即 。
即先计算两两内积,然后根据行做Softmax得到权值,然后得到加权后的结果。 有时候,在一些序列有关的数据当中,会额外加入一些位置关系的先验,比如《Self-Attention with Relative Position Representations》中的一种方法:
然后,是一系列需要学习的参数。Multi Head Attention在Transformer的提出文章《Attention Is All You Need》中,提出了Multi Head Attention,示意图如下:其中Scaled Dot Product Attention指的是:
然后Multi Head Attention就是使用多组Attention得到相应的结果并拼接:
然后ACL 2019有一篇文章《Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned》对多个Head进行了分析,其中有一些有意思的结论,多个Head的作用有大多数是冗余的,很多可以被砍掉,并且还对多个Head进行分类。 文中通过在多个数据集上跑实验,发现大部分Head可以分为以下几种:Positional Head:这个Head计算的权值通常指向临近的词,规则是这个Head在90%的情况下都会把最大的权值分配给左边或者右边的一个词。Syntactic Head:这个Head计算的权值通常会将词语之间的关系联系起来,比如名词和动词的指向关系。Rare Head:这个Head通常会把大的权值分配给稀有词。然后文章还分析了如何去精简Heads,优化的方法如下(给各个Head加个权值,相当于门):
然后去优化 ,加入 稀疏正则化损失:
最后为了近似,其中 的优化可以采用Gumbel Softmax技巧,因此每次训练的时候相当于使用了Sampling的技巧从多个Head里面选出来一部分进行运算,而Sampling的依据(参数 )则可以通过Gumbel Reparametrization的技巧来实现。Convolution Attention在卷积神经网络里面Attention有了更多的变种,比如ECCV 2018 《CBAM: Convolutional Block Attention Module》提出的CBAM:首先,经过Channel-wise计算每个Channel的权值,类似于Squeeze-Excitation,但是这个里面同时考虑了Global Max Pool和Global Average Pool。此外,又针对Spatial的信息进行了加权。Pyramid Attention下面介绍一下Attention金字塔,源于Pyramid Pooling技巧。关于Pyramid Pooling,推荐大家阅读何凯明的《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,示意图如下:输入的图像经过卷积层得到Feature maps,然后经过Spatial Pyramid Pooling层得到不同大小的pooling结果。举例而言,上图最右边的pooling是对每个通道进行全局池化得到256个值(有256个通道),中间的是对每个特征层划分为四个区域进行Pooling,故而得到4 * 256个值,其余类似。然后将各个层次得到的pooling的结果拼接成一个向量。关于Pyramid Attention,类似于Pyramid Pooling,可以使用多个层次的Attention,然后将向量拼接起来得到一个向量,比如ACM MM 2018提出的《Attention-based Pyramid Aggregation Network for Visual Place Recognition》:
Co Attention在多种任务中,可能涉及到成对的输入,比如Video Object Segmentation或者Question Answering,每个输入经过网络会得到一组向量,然后两组向量互相Attend就是Co Attention。比如在CVPR 2019的文章《See More, Know More: Unsupervised Video Object Segmentation With Co-Attention Siamese Networks》里面,针对Video Segmentation任务,对两帧图片经过Siamese Networks进行处理得到相应的多个通道的表示 ,然后两者互相Attend得到:
所以可以看出CoDA的核心就是在于构造相似度,采用了两种计算方法和两种不同的激活函数进行复合。Dual Attention其实Compositional Attention的思想并不是在NeurIPS 2019才出现,很多之前的文章会采用多种形式的Attention来进行构造模型。比如Local Attention和Global Attention的结合,卷积网络里面Positional Attention和Channel Attention的结合等等。比如文章CVPR 2019 的《Dual Attention Network for Scene Segmentation》:以及文章RecSys 2017 《Interpretable Convolutional Neural Networks with Dual Local and Global Attention for Review Rating Prediction》: